LLM 训练成本 快讯列表

快讯列表

关于 LLM 训练成本的快讯列表

时间	详情
2025-10-20 18:58	Karpathy 解析 LLM 文本扩散（2025）：双向注意力相较自回归显著提高训练成本据 @karpathy 表示，文本扩散可以用带双向注意力的普通 Transformer 实现，通过按噪声日程反复重掩码并重新采样所有 token。来源：@karpathy。他称，扩散是图像与视频生成的主流范式，而文本以自回归为主，音频两种方式并存。来源：@karpathy。他补充，去除繁复形式化后可得到简单基线算法，离散扩散在连续情形上更接近流匹配。来源：@karpathy。他解释，自回归是仅向后注意并追加 token，而扩散是在双向注意下刷新整块 token 画布。来源：@karpathy。他指出，双向注意力能带来更强的语言模型，但因无法在序列维并行，使训练成本更高。来源：@karpathy。他还提出，LLM 堆栈中可能进一步在两种范式之间进行插值或泛化。来源：@karpathy。对交易者而言，关键在于双向文本扩散相对自回归的训练成本权衡，这直接影响对训练效率的评估。来源：@karpathy。来源
2025-10-13 15:16	Karpathy发布nanochat：用8x H100约4小时、约100美元训练ChatGPT式LLM，为交易者提供清晰GPU成本基准据@karpathy表示，nanochat是一个从零构建的极简全栈管线，可通过一条脚本在云端GPU上训练并部署简单的ChatGPT式LLM，并在约4小时内通过网页端与模型对话，实现端到端训练与推理流程。来源：@karpathy。他称该代码库约8,000行，涵盖Rust实现的分词器训练、在FineWeb上的预训练及CORE评估、基于SmolTalk与多选数据的中期训练与工具使用、SFT、基于GRPO在GSM8K上的可选强化学习，以及带KV缓存的推理引擎、Python工具、CLI与类ChatGPT网页端，并生成自动化报告卡。来源：@karpathy。披露的成本与时长基准为：8卡H100约4小时成本约100美元、约41.6小时成本约1000美元；一个24小时、depth-30的示例可在MMLU取得40分段、ARC-Easy 70分段、GSM8K 20分段。来源：@karpathy。据此推算，隐含的算力价格约为每H100小时约3.1美元（约100美元对应32个H100小时），较长训练下约为每H100小时约3.0美元（约1000美元对应332.8个H100小时），为交易者提供AI训练支出建模所需的GPU小时成本基准。来源：@karpathy。他还表示约12小时即可在CORE指标上超过GPT-2，且随训练规模提升能力增强，将nanochat定位为透明的强基线方案、LLM101n的压轴项目并具备研究基座潜力。来源：@karpathy。对于关注AI基础设施的加密市场参与者，这些成本与性能披露为评估面向开源LLM训练的中心化与去中心化GPU算力需求提供锚点。来源：@karpathy。来源

时间

详情

2025-10-20
18:58

Karpathy 解析 LLM 文本扩散（2025）：双向注意力相较自回归显著提高训练成本

据 @karpathy 表示，文本扩散可以用带双向注意力的普通 Transformer 实现，通过按噪声日程反复重掩码并重新采样所有 token。来源：@karpathy。他称，扩散是图像与视频生成的主流范式，而文本以自回归为主，音频两种方式并存。来源：@karpathy。他补充，去除繁复形式化后可得到简单基线算法，离散扩散在连续情形上更接近流匹配。来源：@karpathy。他解释，自回归是仅向后注意并追加 token，而扩散是在双向注意下刷新整块 token 画布。来源：@karpathy。他指出，双向注意力能带来更强的语言模型，但因无法在序列维并行，使训练成本更高。来源：@karpathy。他还提出，LLM 堆栈中可能进一步在两种范式之间进行插值或泛化。来源：@karpathy。对交易者而言，关键在于双向文本扩散相对自回归的训练成本权衡，这直接影响对训练效率的评估。来源：@karpathy。

来源

2025-10-13
15:16

Karpathy发布nanochat：用8x H100约4小时、约100美元训练ChatGPT式LLM，为交易者提供清晰GPU成本基准

据@karpathy表示，nanochat是一个从零构建的极简全栈管线，可通过一条脚本在云端GPU上训练并部署简单的ChatGPT式LLM，并在约4小时内通过网页端与模型对话，实现端到端训练与推理流程。来源：@karpathy。他称该代码库约8,000行，涵盖Rust实现的分词器训练、在FineWeb上的预训练及CORE评估、基于SmolTalk与多选数据的中期训练与工具使用、SFT、基于GRPO在GSM8K上的可选强化学习，以及带KV缓存的推理引擎、Python工具、CLI与类ChatGPT网页端，并生成自动化报告卡。来源：@karpathy。披露的成本与时长基准为：8卡H100约4小时成本约100美元、约41.6小时成本约1000美元；一个24小时、depth-30的示例可在MMLU取得40分段、ARC-Easy 70分段、GSM8K 20分段。来源：@karpathy。据此推算，隐含的算力价格约为每H100小时约3.1美元（约100美元对应32个H100小时），较长训练下约为每H100小时约3.0美元（约1000美元对应332.8个H100小时），为交易者提供AI训练支出建模所需的GPU小时成本基准。来源：@karpathy。他还表示约12小时即可在CORE指标上超过GPT-2，且随训练规模提升能力增强，将nanochat定位为透明的强基线方案、LLM101n的压轴项目并具备研究基座潜力。来源：@karpathy。对于关注AI基础设施的加密市场参与者，这些成本与性能披露为评估面向开源LLM训练的中心化与去中心化GPU算力需求提供锚点。来源：@karpathy。

来源

关于 LLM 训练成本 的快讯列表

关于 LLM 训练成本的快讯列表